少量学习(FSL)是一个具有挑战性的任务,\ emph {i.e.},如何用少数例子识别新颖的类?基于预先训练的方法通过预先训练特征提取器,然后通过具有基于均值的原型的余弦最近邻分类来预测新颖类来有效地解决问题。然而,由于数据稀缺,通常的平均原型通常偏置。在本文中,我们试图通过将原型偏差视为原型优化问题来减少原型偏差。为此,我们提出了一种新颖的基于元学习的原型优化框架来纠正原型,\ emph {i.},引入元优化器以优化原型。虽然现有的元优化器也可以适应我们的框架,但它们都忽略了一个关键的梯度偏置问题,\ emph {i.},均值的梯度估计也偏置在稀疏数据上。为了解决这个问题,我们将梯度及其流量视为元知识,然后提出一种新的神经常规差分方程(ODE)基础的元优化器,以抛光原型,称为Metanode。在此元优化器中,我们首先将基于平均原型的原型视图为初始原型,然后将原型优化的过程模拟为神经竞争指定的连续时间动态。仔细设计梯度流动推理网络,学习估计原型动态的连续梯度流。最后,通过求解神经焦点,可以获得最佳原型。对Miniimagenet,Tieredimagenet和Cub-200-2011的广泛实验显示了我们方法的有效性。
translated by 谷歌翻译
跨场型模型适应对于在实际场景中的摄像机重新定位至关重要。通常,最好将预学的模型快速适应新颖的场景,并尽可能少地训练样本。但是,由于图像特征提取和场景坐标回归的纠缠,现有的最新方法几乎不能支持如此少的场景适应。为了解决此问题,我们使用解耦的解决方案接近摄像机重新定位,在该解决方案中,分别执行特征提取,坐标回归和姿势估计。我们的关键见解是,应通过删除坐标系的分心因子来学习用于坐标回归的功能编码器,从而从多个场景中学到了特征编码器,以获得一般特征表示和更重要的,不敏感的功能。具有此功能先验,并与坐标回归器结合使用,与现有集成解决方案相比,新场景中几乎没有射击的观测比3D世界更容易。实验表明,与最先进的方法相比,我们的方法的优越性,在具有不同的视觉外观和观点分布的几个场景上产生了更高的精度。
translated by 谷歌翻译
Point cloud registration is a popular topic which has been widely used in 3D model reconstruction, location, and retrieval. In this paper, we propose a new registration method, KSS-ICP, to address the rigid registration task in Kendall shape space (KSS) with Iterative Closest Point (ICP). The KSS is a quotient space that removes influences of translations, scales, and rotations for shape feature-based analysis. Such influences can be concluded as the similarity transformations that do not change the shape feature. The point cloud representation in KSS is invariant to similarity transformations. We utilize such property to design the KSS-ICP for point cloud registration. To tackle the difficulty to achieve the KSS representation in general, the proposed KSS-ICP formulates a practical solution that does not require complex feature analysis, data training, and optimization. With a simple implementation, KSS-ICP achieves more accurate registration from point clouds. It is robust to similarity transformation, non-uniform density, noise, and defective parts. Experiments show that KSS-ICP has better performance than the state of the art.
translated by 谷歌翻译
我们提出了一种新方法,以从多个人的一组稀疏的多视图图像中学习通用的动画神经人类表示。学到的表示形式可用于合成一组稀疏相机的任意人的新型视图图像,并通过用户的姿势控制进一步对它们进行动画。尽管现有方法可以推广到新人,也可以通过用户控制合成动画,但它们都不能同时实现。我们将这一成就归因于用于共享多人人类模型的3D代理,并将不同姿势的空间的扭曲延伸到共享的规范姿势空间,在该空间中,我们在其中学习神经领域并预测个人和人物 - 姿势依赖性变形以及从输入图像中提取的特征的外观。为了应对身体形状,姿势和衣服变形的较大变化的复杂性,我们以分离的几何形状和外观设计神经人类模型。此外,我们在空间点和3D代理的表面点上都利用图像特征来预测人和姿势依赖性特性。实验表明,我们的方法在这两个任务上的最先进都大大优于最先进的方法。该视频和代码可在https://talegqz.github.io/neural_novel_actor上获得。
translated by 谷歌翻译
视觉(RE)本地化解决了估计已知场景中捕获的查询图像的6-DOF(自由度)摄像头的问题,该镜头是许多计算机视觉和机器人应用程序的关键构建块。基于结构的本地化的最新进展通过记住从图像像素到场景坐标的映射与神经网络的映射来构建相机姿势优化的2D-3D对应关系。但是,这种记忆需要在每个场景中训练大量的图像,这是沉重效率降低的。相反,通常很少的图像足以覆盖场景的主要区域,以便人类操作员执行视觉定位。在本文中,我们提出了一种场景区域分类方法,以实现几乎没有拍摄图像的快速有效的场景记忆。我们的见解是利用a)预测的特征提取器,b)场景区域分类器和c)元学习策略,以加速培训,同时缓解过度拟合。我们在室内和室外基准上评估了我们的方法。该实验验证了我们方法在几次设置中的有效性,并且训练时间大大减少到只有几分钟。代码可用:\ url {https://github.com/siyandong/src}
translated by 谷歌翻译
使用深度神经网络的所以(3)歧管上的回归旋转是一个重要的尚未解决的问题。欧几里德网络输出空间与非欧几里德的间隙如(3)歧管对向前和后侧通行证的神经网络学习施加了严重的挑战。虽然有几个作品提出了不同的回归型旋转表示,但很少有效地致力于改善后向通过的梯度背交。在本文中,我们提出了一种歧管感知梯度,即直接逆产到深网络权重。利用黎曼梯度和新型投影梯度,我们提出的正规投影歧管梯度(RPMG)有助于网络在各种旋转估计任务中实现新的最先进性能。所提出的梯度层也可以应用于诸如单元球的其他平滑歧管。
translated by 谷歌翻译
在这项工作中,我们解决了主动摄像机定位的问题,该问题可积极控制相机运动以实现精确的相机姿势。过去的解决方案主要基于马尔可夫定位,从而减少了定位的位置摄像头的不确定性。这些方法将摄像机定位在离散姿势空间中,并且对定位驱动的场景属性不可知,从而限制了相机姿势的精度。我们建议通过由被动和主动定位模块组成的新型活动相机定位算法克服这些局限性。前者通过建立对点的摄像头通信来优化连续姿势空间中的相机姿势。后者明确对场景和相机不确定性组件进行建模,以计划正确的摄像头姿势估计的正确路径。我们在合成和扫描现实世界室内场景的挑战性本地化场景上验证了算法。实验结果表明,我们的算法表现优于基于马尔可夫定位的最先进的方法和优质相机姿势精度的其他方法。代码和数据在https://github.com/qhfang/accurateacl上发布。
translated by 谷歌翻译
不同的环境对长期自主驾驶的户外强大的视觉感知构成了巨大挑战,以及对不同环境影响的学习算法的概括仍然是一个公开问题。虽然最近单眼深度预测得到了很好的研究,但很少有很多工作,专注于不同环境的强大的基于学习的深度预测,例如,由于缺乏如此多环境的现实世界数据集和基准测试,不断变化照明和季节。为此,基于CMU Visual Location DataSet建立了第一个跨赛季单眼深度预测数据集和基准赛季。为了基准不同环境下的深度估计性能,我们使用几个新配制的指标调查来自Kitti基准的代表性和最近的最先进的开源监督,自我监督和域适应深度预测方法。通过对所提出的数据集进行广泛的实验评估,定性和定量分析了多种环境对性能和鲁棒性的影响,表明即使微调,长期单眼深度预测也仍然具有挑战性。我们进一步提供了承诺的途径,即自我监督的培训和立体声几何约束有助于提高改变环境的鲁棒性。数据集可在https://seasondepth.github.io上找到,并且在https://github.com/seasondepth/seasondepth上提供基准工具包。
translated by 谷歌翻译
Masked image modeling (MIM) performs strongly in pre-training large vision Transformers (ViTs). However, small models that are critical for real-world applications cannot or only marginally benefit from this pre-training approach. In this paper, we explore distillation techniques to transfer the success of large MIM-based pre-trained models to smaller ones. We systematically study different options in the distillation framework, including distilling targets, losses, input, network regularization, sequential distillation, etc, revealing that: 1) Distilling token relations is more effective than CLS token- and feature-based distillation; 2) An intermediate layer of the teacher network as target perform better than that using the last layer when the depth of the student mismatches that of the teacher; 3) Weak regularization is preferred; etc. With these findings, we achieve significant fine-tuning accuracy improvements over the scratch MIM pre-training on ImageNet-1K classification, using all the ViT-Tiny, ViT-Small, and ViT-base models, with +4.2%/+2.4%/+1.4% gains, respectively. Our TinyMIM model of base size achieves 52.2 mIoU in AE20K semantic segmentation, which is +4.1 higher than the MAE baseline. Our TinyMIM model of tiny size achieves 79.6% top-1 accuracy on ImageNet-1K image classification, which sets a new record for small vision models of the same size and computation budget. This strong performance suggests an alternative way for developing small vision Transformer models, that is, by exploring better training methods rather than introducing inductive biases into architectures as in most previous works. Code is available at https://github.com/OliverRensu/TinyMIM.
translated by 谷歌翻译
In this paper, we propose a robust 3D detector, named Cross Modal Transformer (CMT), for end-to-end 3D multi-modal detection. Without explicit view transformation, CMT takes the image and point clouds tokens as inputs and directly outputs accurate 3D bounding boxes. The spatial alignment of multi-modal tokens is performed implicitly, by encoding the 3D points into multi-modal features. The core design of CMT is quite simple while its performance is impressive. CMT obtains 73.0% NDS on nuScenes benchmark. Moreover, CMT has a strong robustness even if the LiDAR is missing. Code will be released at https://github.com/junjie18/CMT.
translated by 谷歌翻译